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摘要 ”生物 技术 和 信息 技术 的 迅速 发 展 ， 使 生命 科学 进入 了 数据 爆发 的 新 时 代 ， 传 统 生命 科学 研究 范式 难以 
在 日 益 增 长 的 生物 大 数据 中 揭示 生命 复杂 系统 的 本 质 规律 。 随 着 人 工 智能 (AI) 在 生命 科学 研究 领域 持续 取 
得 颠覆 性 突破 ，AI 驱动 的 生命 科学 研究 新 范式 呼之欲出 。 文 章 通 过 深入 剖析 AI 了 驱动 的 生命 科学 研究 的 典型 
范例 ， 提 出 了 生命 科学 研究 新 范式 的 内 涵 和 关键 要 素 ， 阅 述 并 讨论 了 新 范式 下 的 生命 科学 研究 前 沿 和 我 国 面 


临 的 挑战 。 
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2007 年 ， 图 灵 奖 得 主 吉 姆 格雷 (Jim Gray) 提 
出 了 科学 研究 的 四 类 范式 ， 这 些 范式 基本 上 被 科学 界 
广泛 认可 。 第 一 范式 是 实验 (经验) 科学， 主要 通过 
实验 或 经 验 来 描述 自然 现象 并 总 结 规律 ; 第 二 范式 是 
理论 科学 ， 科 学 家 通过 数学 模型 进行 归纳 总 结 形成 科 
学 理论 ; 第 三 范式 是 计算 科学 ， 利 用 计算 机 对 科学 实 
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进行 模拟 仿真 ;第 四 范式 是 数据 科学 ， 利 用 仪器 收 
或 仿真 计算 产生 的 大 量 数 据 进行 分 析 与 知识 提取 。 
科学 研究 的 范式 变革 体现 了 人 类 对 宇宙 探索 的 深度 、 
广度 、 方 式 和 效率 的 演进 。 

生命 科学 的 发 展 经 历 了 多 个 阶段 ， 其 研究 范式 的 
演进 也 有 其 独特 的 学 科 属性 。 在 生命 科学 早期 发 展 阶 
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段 ， 生 物 学 家 主要 通过 观察 不 同 生 物体 的 形态 和 行为 
模式 来 探索 生物 存在 的 一 般 形式 和 演化 的 共同 规律 ， 
这 一 阶段 的 代表 是 达尔 文 ， 通 过 全 球 考察 积累 了 大 量 
物种 的 表象 描述 资料 ， 并 以 此 提出 了 进化 论 。 从 20 址 
纪 中 叶 开 始 ， 以 DNA 双 螺 旋 结 构 的 揭示 为 标志 ， 生 命 
科学 研究 进入 了 分 子 生物 学 时 代 ， 生 物 学 家 开始 在 更 
深层 次 水 平 研究 生命 的 基本 组 成 和 运作 规律 。 在 这 一 
阶段 ， 生 物 学 家 仍 主要 通过 对 生物 现象 的 观察 和 实验 
来 总 结 规律 与 知识 。 随 着 生命 科学 的 进一步 发 展 和 新 
型 生物 技术 的 快速 涌现 ， 科 学 家 可 以 对 生命 科学 在 不 
同 层级 和 不 同 分 辨 率 下 进行 更 为 广泛 的 探索 ， 这 也 使 
得 生命 科学 领域 的 数据 呈现 爆发 性 增长 。 通 过 高 通 
量 、 多 维度 组 学 数据 分 析 与 实验 科学 结合 的 方式 对 生 
物 过 程 进行 更 加 精细 的 描述 和 人 解析， 成 为 现代 生命 科 


学 人 研究 的 常态 。 
然而 ， 生 命 系统 具有 多 层面 的 复杂 性 ， 涵 盖 了 从 


分 子 、 细 胞 到 个 体 不 同 层 次 ， 以 及 个 体 间 的 种 群 关 
系 、 机 体 与 环境 的 互 作 关系 ， 展 现 出 多 层级 、 高 维 
度 、 高 度 互联 、 动 态 调 控 的 特点 。 现 有 的 实验 科学 研 
究 范式 在 面 对 如 此 复杂 的 生命 系统 时 ， 往 往 只 能 从 特 
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定 扩 度 对 有 限 数量 的 样本 进行 观察 描述 和 研究 ， 难 以 
全 面 理解 生物 网 络 的 运作 机 制 ; 并且 高 度 依赖 人 的 经 
验 和 先 验 知识 对 特定 生物 关系 进行 探索 ， 难 以 从 大 规 
模 、 多 样 性 、 高 维度 数据 中 高 效 提取 隐匿 的 关联 和 机 
制 。 面 对 生命 现象 中 复杂 的 非 线性 关系 和 难以 预测 的 
特征 ， 人 工 智 能 CAD 技术 展现 出 强大 的 能 力 ， 并 且 
已 经 在 蛋白 质 结构 预测 、 基 因 调 控 网 络 模拟 解析 方面 
表现 出 颠覆 性 的 应 用 潜力 ， 将 生命 科学 研究 由 实验 科 
学 为 主 的 第 一 范式 推 向 以 人 工 智 能 驱动 的 生命 科学 研 
究 新 范式 一 一 第 五 范式 (图 1)。 

本 文 将 从 AI 驱动 的 生命 科学 研究 典型 范例 、 生 命 
科学 研究 新 范式 的 内 涵 和 关键 要 素 、 新 范式 赋 能 的 生 
命 科学 研究 前 沿 及 我 国 面临 的 挑战 3 个 方面 进行 系统 


论述 。 


1 人 工 智 能 驱动 的 生命 科学 研究 典型 范例 


生命 是 一 个 多 层次 、 多 尺度 、 动 态 互 联 、 相 互 影 
响 的 复杂 系统 。 在 面 对 生命 现象 的 极端 复杂 性 、 多 尺 
度 跨 越 和 时 空 动态 变化 时 ， 传统 的 生命 科学 研究 范式 
往往 只 能 从 局 部 人 手 ， 通 过 实验 验证 或 有 限 层 次 的 组 
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Figure 1 Brief overview of development of life sciences and artificial intelligence 
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学 数据 分 析 建 立 有 限 生 物 分 子 和 表 型 的 关联 关系 。 然 
而 ， 即 使 花费 巨大 成 本 ， 也 通常 只 能 发 现 特定 情境 下 
的 单一 线性 关联 机 制 ， 与 生命 活动 的 非 线 性 属性 在 复 
杂 度 上 存在 显著 差异 趾 ， 难 以 全 面 理解 整个 网 络 的 运 
作 机 制 。 

ARR, 尤其 是 深度 学 习 和 预 训练 大 模型 等 技 
术 ， 以 其 优越 的 模式 识别 和 特征 提取 能 力 ， 能 够 在 庞 
大 的 参数 堆 疤 情况 下 超越 人 类 理性 推理 能 力 ， 从 数据 
中 更 好 地 理解 复杂 生物 系统 中 的 规律 。 现 代 生 物 技术 
的 不 断 发 展 ， 使 生命 科学 领域 的 数据 呈现 跨越 式 增 
长 ， 在 过 去 全 球 范围 生命 科学 研究 中 ， 人 类 已 经 积累 
了 大 量 基 于 实验 描述 和 验证 的 数据 ， 为 AI 破解 生命 科 
学 底层 规律 创造 了 基础 外 。 当 拥有 充足 且 高 质量 的 数 
据 和 适 配 于 生命 科学 的 算法 时 ，AI 模 型 就 能 够 在 多 层 
次 的 海量 数据 中 以 “ 低 维 ” 数 据 预 测 “ 高 维 ” 信 息 及 
规律 ， 实 现 从 基因 序列 和 表达 等 低 维 数据 到 细胞 、 机 
体 等 高 维 复杂 生物 过 程 规 律 揭示 的 跨越 ,解析 复杂 的 
非 线性 关系 ， 如 生物 大 分 子 结构 生成 规律 、 基 因 表 达 
调控 机 制 ， 甚 至 个 体 发 育 、 误 老 等 多 因素 交叉 的 复杂 
生物 系统 中 的 底层 规律 。 在 此 发 展 趋势 下 ， 近 年 来 生 
命 科 学 领域 涌现 出 了 蛋白质 结构 解析 、 基 因 调 控 规 律 
解析 等 一 批 AI 驱 动 生命 科学 研究 发 展 的 典型 范例 。 
1.4 蛋白 质 结构 解析 范例 
蛋白 质 作 为 生物 体内 关键 功能 的 执行 者 ， 其 结构 
直接 影响 运输 、 催 化 、 结 合 和 免疫 功能 等 重要 的 生物 
过 程 。 虽 然 测 序 技术 可 以 揭示 蛋白 质 所 包含 的 氨基 酸 
序列 ， 但 任何 一 个 已 知 氨基 酸 序列 的 蛋白 质 链 有 可 能 
折 破 成 天 文 数 字 中 的 任何 一 种 可 能 构象 ， 这 使 得 准确 
解析 蛋白 质 结 构成 为 长 期 以 来 的 挑战 。 利 用 传统 技术 
如 核磁 共振 、X 射线 晶体 分 析 、 冷 冻 电 子 显微镜 等 解 
析 已 知 序列 的 蛋白 质 结构 方法 ， 需 要 数 年 时 间 才 能 描 
绘 出 单个 蛋白 质 的 形状 ， 昂 贵 耗 时 且 不 能 保证 成 功 解 
析 其 结构 。 因 此 ， 捕 获 蛋 白质 折 欠 的 底层 规律 从 而 实 
现 对 蛋白 质 结构 的 精准 预测 ， 一 直 是 结构 生物 学 领域 
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最 重要 的 挑战 之 一 。 

AlphaFold 2 利用 基于 注意 力 机 制 的 深度 学 习 算 
法 ， 对 大 量 蛋 白质 序列 和 结构 数据 进行 训练 ， 并 结合 
物理 学 、 化 学 和 生物 学 的 先 验 知识 ， 构 建 了 包含 特征 
提取 、 编 码 、 解 码 模 块 的 蛋白 质 结构 解析 模型 站 。 在 
2020 年 国际 蛋白 质 结构 预测 竞赛 (CASP14) 中 ， 
AlphaFold 2 取得 了 瞩目 的 成 绩 ， 其 蛋白 质 三 维 结构 预 
测 准确 性 甚至 可 与 实验 解析 的 结果 相 媲 美 。 这 一 突破 
为 生命 科学 领域 带 来 了 全 新 的 视角 和 前 所 未 有 的 机 
遇 ， 主 要 体现 在 3 点 。 

(1) 对 药物 发 现 领域 产生 了 直接 影响 。 大 多 数 药 
物 通 过 与 体内 和 蛋白质 特殊 结构 域 的 结合 而 引发 蛋白 质 
功能 的 变化 ，AlphaFold 2 能 够 快速 计算 出 海量 目标 和 蛋 
白质 的 结构 ， 从 而 有 针对 性 地 设计 药物 以 有 效 地 与 这 
些 蛋 白质 结合 由。 

(2) 对 蛋白 质 的 理性 设计 提供 了 新 的 可 能 性 。 一 
且 AI 对 蛋白 质 折 笃 的 底层 规律 有 了 深刻 理解 ， 就 可 以 
利用 这 一 知识 设计 出 折 县 成 所 需 结 构 的 蛋白 质 序 列 。 
这 使 得 生物 学 家 可 以 根据 需求 自由 设计 和 改造 蛋白 质 
或 酶 的 结构 ， 如 设计 更 高 活性 的 基因 编辑 酶 9， 其 至 
是 自然 界 中 不 存在 的 蛋白 质 结构 外。 同时 也 推动 了 人 
们 对 基因 编码 信息 在 蛋白 质 层 面 结构 投射 规律 的 理 
解 ， 并 将 大 幅 提 高 人 类 对 生命 的 改造 能 力 。 

(3) AlphaFold 2 彻底 改变 蛋白 质 结构 解析 领域 的 
研究 范式 。 从 只 能 通过 费时 费力 的 传统 实验 技术 解析 
蛋白 质 结构 转变 为 低 门 槛 、 高 精度 、 高 通 量 地 预测 蛋 
白质 三 维 结构 的 新 范式 ， 证 明 通 过 将 蛋白 质 知 识 和 AI 
技术 相 结 合 ， 可 以 提取 和 学 习 到 高 维 、 复 杂 的 知识 ， 
促进 对 蛋白 质 物 理 结构 和 功能 的 更 深入 理解 。 

1.2 基因 调控 规律 解析 范例 

人 类 基因 组 计划 被 誉 为 20 世 纪 人 类 三 大 科学 计划 
之 一 ， 揭 开 了 生命 奥秘 的 序幕 。 尽 管 编码 生命 个 体 的 
遗传 信息 存储 在 DNA 序 列 中 ， 但 每 个 细胞 的 命运 和 表 
型 却 因 其 独特 的 时 空 背景 而 千差万别 。 这 种 复杂 的 生 


命 过 程 由 精细 的 基因 表达 调控 系统 所 控制 ， 而 探索 生 
普遍 存在 的 基因 调控 机 制 是 继 人 类 基因 组 计划 之 后 
最 为 重要 的 生命 科学 问题 之 一 。 不 同 细胞 的 基因 表达 
谱 是 理解 生物 系统 内 基因 调控 活动 的 理想 窗口 。 然 
而 ， 仅 通过 生物 学 实验 全 面 解读 基因 调控 机 制 ， 需 要 
捕获 不 同 生物 个 体 的 不 同 细胞 类 型 在 不 同 环境 背景 
的 对 照 试 验 来 观察 。 传 统 生 物 信 息 分 析 方法 只 能 处 理 
少量 数据 ， 对 大 规模 、 高 维度 上 且 缺 乏 准 确 标注 的 生物 
组 大 数据 难以 捕捉 数据 中 复杂 的 非 线 性 关系 。 

近年 来 ， 自 然 语言 处 理 技 术 的 不 断 突破 ， 特 别 是 
大 语言 模型 的 迅猛 发 展 ， 能 够 通过 训练 语 料 数 据 使 模 
型 具有 理解 人 类 语言 描述 知识 的 能 力 ， 为 解决 这 一 领 
域 问 题 带 来 了 新 思路 。 国 际 多 个 研究 团队 借鉴 大 语 
言 模型 的 训练 思路 ， 相 继 基于 数 以 千 万 计 的 人 类 单 
细胞 转录 组 谱 数 据 和 庞大 的 算 力 资源 ， 利 用 
Transformer 等 先进 算法 和 多 种 生物 学 知识 ， 构 建 了 
多 个 具有 理解 基因 动态 关系 能 力 的 生命 基础 大 模 
型 ， 如 GeneCompass"!, scGPTÜ!, Geneformer"! 和 
scFoundation0 等 。 这 些 生命 基础 大 模型 以 基因 表达 
等 底层 生命 活动 信息 为 训练 基础 ， 利 用 机 器 来 学 习 
理解 这 些 “ 低 维 ” 的 生命 科学 数据 与 复杂 “高 维 ” 
的 基因 表达 调控 网 络 、 细 胞 命运 转变 等 底层 生命 机 
制 之 间 的 关联 性 和 对 应 规律 ， 实 现 以 低 维 数据 对 高 
维 信息 的 有 效 模拟 和 预测 。 这 种 对 基因 表达 调控 网 
络 的 模拟 可 以 在 广泛 的 下 游 任务 中 表现 出 卓越 性 能 
为 深入 理解 基因 调控 规律 提供 了 全 新 的 途径 。 

现 有 的 AI 驱动 生命 科学 研究 的 成 功 案例 向 我 们 证 
明 ， 面 对 更 深入 、 更 系统 的 生命 科学 问题 ，AI 有 望 突 
破 传统 研究 方法 难以 解决 的 困境 、 构 建 从 基础 生物 层 
次 到 整个 生命 系统 的 投射 理论 体系 ， 并 进一步 推动 生 

命 科 学 向 更 高 阶段 发 展 ， 开 启 生命 科学 研究 的 新 范式 。 


n E 
kz 


RI 


命 科学 研究 新 范式 的 内 涵 和 关键 要 素 


随 着 生物 技术 的 不 断 进步 、 生 命 科学 数据 的 快速 
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增长 、AI 技 术 的 飞速 发 展 及 其 与 生命 领域 的 深度 交叉 
融合 ，AI 展 示 出 了 对 生命 科学 知识 的 深入 理解 和 泛 化 
能 力 ， 不 仅 提 高 了 生命 科学 的 研究 高 度 和 广度 ， 也 促 
使 生命 科学 研究 由 实验 科学 为 主 的 第 一 范式 ， 跨 越 进 
入 AI 驱动 的 生命 科学 研究 新 范式 〈 第 五 范式 ， 以 下 简 
称 “ 新 范式 ”)。 

深入 剖析 AI 驱 动 生命 科学 研究 的 典型 范例 ， 
笔者 认为 ， 生 命 科 学 研究 的 新 范式 正如 一 台 智 能 化 的 


新 能 源 汽车 ， 对 标 新 能 源 汽车 的 电池 系统 、 电 控 系 
统 、 电 机 系统 、 辅 助 驾 驶 系统 、 底 盘 系 统 等 核心 技 
术 ， 新 范式 应 具备 生命 科学 大 数据 、 智 能 算法 模型 
算 力 平台 、 专 家 先 验 知识 和 交叉 研究 团队 五 大 关键 要 
素 (图 2)。 犹 如 电池 系统 为 车 辆 提供 能 量 ， 生 命 科学 


大 数据 为 科学 研究 提供 基础 资源 ; 算法 模型 则 像 智能 
电 控 系 统 ， 赋 能 深入 理解 生物 系统 的 运行 机 制 ; 算 力 
平台 可 比喻 为 电机 系统 ， 负 责 处 理 海量 的 科学 数据 和 
复杂 的 计算 任务 ; 专家 先 验 知识 则 像 辅助 敬 驶 系统 ， 
为 科学 家 提供 方向 引领 和 实施 经 验 ; 交叉 研究 团队 类 
似 于 底盘 系统 ， 负 责 整 合 不 同 领域 的 知识 和 技能 ， 
过 跨 学 科 合作 提高 研究 效率 ， 推 动 生命 科学 的 发 展 。 
2.1 关键 要 素 一 : 生命 科学 大 数据 
生命 科学 大 数据 是 新 范式 “汽车 ” 


的 “电池 ” 系 


2 
e 2 
p ØL 
专家 先 验 知识 交叉 研究 团队 
(辅助 驾驶 系统 ) (底盘 系统 ) 
Suma 
ERU AD 
生命 科学 大 数据 
(电池 系统 ) 


图 2 ”生命 科学 研究 新 范式 的 五 大 关键 要 素 
Figure2 Five key elements of new paradigm in life 
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专题 : 大 力 推进 科研 范式 变革 


统 。 随 着 新 型 生物 技术 的 发 展 ， 具 有 多 模 态 、 多 维 
度 、 分 布 分 散 、 关 联 隐 匿 、 多 层次 交汇 等 特点 的 生命 
科学 大 数据 逐渐 形成 ; 只 有 对 生命 科学 大 数据 进行 有 
效 整合 并 利用 创新 AI 技术 充分 挖掘 数据 ， 才 能 够 打破 
人 类 科学 家 的 认 知 局 限 、 促 进 新 发 现 的 产生 并 拓展 生 


构建 高 性 能 高 吞吐 量 超级 计算 机 、 研 发 专门 用 于 处 理 
生命 科学 数据 的 芯片 、 设 计 用 于 加 速生 物 模型 推理 和 
训练 的 专用 处 理 需 等 ， 为 生命 科学 研究 提供 高 效 、 可 
靠 的 计算 和 处 理 能 力 ， 以 应 对 生命 科学 领域 产生 的 海 
量 数据 、 满 足 生命 科学 领域 复杂 模型 构建 的 计算 需 


命 科 学 的 探索 范围 。 例 如 医疗 视觉 大 模型 中 ， 通 过 
整合 多 来 源 、 多 模 态 、 多 任务 的 医疗 图 像 数 据 ， 实 现 
了 在 少 样本 和 零 样本 条 件 下 的 多 种 应 用 ; 跨 物种 生命 
基础 大 模型 GeneCompasst1， 通 过 有 效 整 合 全 球 开 源 
的 单 细 胞 数据 ， 在 超过 1.2 亿 个 单 细胞 的 训练 数据 集 
上 实现 了 对 基因 表达 调控 规律 的 全 景 式 学 习 理 解 等 多 
个 生命 科学 问题 的 分 析 。 
2.2 关键 要 素 二 : 智能 算法 模型 

智能 算法 模型 是 新 范式 “汽车 ”的 “ 电 控 ” 系 
统 。 从 浩如烟海 的 生命 科学 大 数据 中 涌现 生命 的 新 规 
律 和 新 知识 ， 需 要 创新 AI 算法 和 模型 ， 如何 研发 利用 
生命 科学 适 配 的 AI 算法 、 提 取 有 效 的 生物 特征 、 构 建 
大 规模 生物 过 程 动态 模型 ， 是 当前 新 范式 的 中 心 问 
1^. (Wn, Gerstein 团队 "5 使 用 贝 叶 斯 网 络 算法 预 
测 蛋 白质 相互 作用 的 成 果 发 表 于 Science， 为 经 典 机 器 
学 习 在 生物 信息 领域 发 展 莫 定 了 基础 ， 图 卷 积 神经 网 
络 算法 被 用 于 分 析 蛋 白质 一 蛋白 质 相 互 作 用 网 络 "9 和 
基因 调控 网 络 o 等 生物 分 子 网 络 ， 拓 展 了 生命 科学 领 
域 的 研究 方向 ; AlphaFold 2 外 使 用 Transformer 模型， 
能 够 在 高 准确 度 的 基础 上 快速 计算 出 大 量 蛋 白质 的 结 
构 ， 都 展示 出 了 AI 算 法 模型 在 生命 科学 研究 新 范式 中 
的 重要 性 。 
2.3 关键 要 素 三 : 算 力 平台 

算 力 平台 是 新 范式 “汽车 ”的 “电机 ”系统 。 算 
力 是 实现 AI 运行 的 基础 ， 深 度 学 习 、 大 模型 技术 等 适 
用 于 生命 科学 研究 新 范式 的 AI 算法 模型 的 不 断 发 展 ， 
使 AI 模型 训练 需要 更 强大 、 更 高 效 的 算 力 平台 支持 。 
面向 新 范式 ， 未 来 应 构建 能 够 支撑 AI 赋 能 生命 科学 研 
究 的 硬件 能 力 平 台 ， 包 括 建设 高 速 大 容量 存储 系统 、 


54 |2024 年 .第 39 卷 .第 1 其 


求 ， 保 障 AI 在 生命 科学 领域 的 应 用 和 创新 。 
2.4 关键 要 素 四 : 专家 先 验 知识 

专家 先 验 知识 是 新 范式 “汽车 ”的 “辅助 驾驶 ” 
系统 。 新 范式 下 ， 已 有 的 生命 科学 知识 将 为 AI 算法 模 
型 提供 宝贵 的 训练 约束 条 件 、 重 要 的 背景 和 特征 关 
系 ， 帮 助 解释 和 理解 生命 科学 数据 的 复杂 性 、 验 证 和 
优化 AI 在 生命 科学 领域 的 应 用 ; 能 够 在 AI 算法 设计 
和 模型 构建 时 发 挥 重要 的 指导 作用 ， 促 进 更 加 准确 、 
高 效 地 解决 生命 科学 问题 ， 推 动 生命 科学 研究 向 更 深 
入 、 全 面 的 方向 发 展 。 例 如 ， 通 过 机 入 生命 科学 专家 
先 验 知识 和 人 类 注释 信息 编码 ， 新 型 基因 表达 预 训练 
大 模型 中 提高 了 对 生物 数据 间 复 杂 特 征 关联 关系 的 解 
释 ， 展 示 出 更 为 优异 的 模型 表现 。 
2.5 关键 要 素 五 : 交叉 研究 团队 

交 又 研究 团队 是 新 范式 “汽车 89 "URGET A 
统 。 新 范式 下 ， 一 支 由 AI 专家 、 数 据 科 学 家 、 生 物 学 
家 和 医学 家 等 组 成 的 多 学 科 交 又 研究 团队 对 于 实现 跨 
越 式 的 生命 科学 发 现 至 关 重 要 。 多 元 背景 紧密 协作 的 
交叉 研究 团队 能 够 整合 AI、 生 物 学 、 医 学 等 领域 的 专 
业 知 识 ， 提 供 多 元 化 的 视角 和 方法 ， 为 全 面 理解 和 解 
决 生命 科学 中 的 复杂 机 制 问题 提供 牢固 基础 ， 为 创新 
性 解决 方案 提供 更 多 可 能 性 ， 从 而 推动 生命 科学 领域 
的 突破 性 发 现 和 进展 。 


3 新 范式 赋 能 的 生命 科学 研究 前 沿 及 我 国 面 
临 的 挑战 


传统 的 研究 范式 对 生命 的 探索 如 同 管 中 疯 豹 ， 生 
物 学 家 在 生命 科学 的 不 同 细 分 领域 各 自 奋战 。 随 着 新 
范式 的 不 断 发 展 ， 生 命 科学 研究 将 迎 来 以 AI 预 测 、 指 


导 、 提 出 假说 、 验 证 假设 为 特点 的 新 型 研究 模 态 ， 进 
发 出 一 批 快速 发 展 的 生命 科学 新 范式 前 治 研 究 方向 ， 
并 展现 出 新 范式 变革 带 来 的 发 展 增益 。 然 而 ， 在 当前 
条 件 下 加 速 推进 我 国生 命 科 学 研究 新 范式 的 建立 和 推 
广 ， 仍 面临 一 系列 巨大 的 挑战 。 

3.1 新 范式 赋 能 的 生命 科学 研究 前 沿 

(1) 结构 生物 学 。 目 前 在 结构 生物 学 领域 ， 以 
AlphaFold 为 代表 的 AI 应 用 技术 仍 停留 在 “从 序列 到 
结构 ”的 和 蛋白质 结 构 预 测 和 设计 阶段 8 2， 还 无 法 实 
现 复杂 生理 条 件 下 蛋白 质 结 构 和 功能 的 模拟 与 预测 。 
更 高 质量 、 更 大 规模 的 蛋白 质数 据 和 新 型 算法 的 出 
现 ， 将 有 望 对 不 同 生理 状态 和 时 空 条 件 下 的 生物 大 分 
子 结构 和 功能 进行 系统 解析 ， 并 实现 蛋白 质 “ 从 序列 
到 功能 ”甚至 “从 序列 到 多 尺度 相互 作用 ”的 智能 化 
结构 解析 与 精细 设计 。 

(2) 系统 生物 学 。 当 前 的 组 学 数据 分 析 仍 局 限于 
较 低 维度 的 生物 组 学 观测 水 平 ， 还 未 形成 从 基因 水 平 
到 细胞 水 平 甚至 生物 个 体力 至 群体 组 学 水 平 的 全 维度 
观测 。 新 范式 将 融通 多 维度 、 多 模 态 的 生物 大 数据 和 
专家 先 验 知识 ， 提 取 生 物 表 型 的 关键 特征 ， 构 建 多 尺 
度 生 物 过 程 解析 模型 ,还原 复杂 生物 系统 运行 的 底层 
规律 ， 形 成 基础 而 广泛 适用 的 系统 生物 学 人 研究 新 
体系 。 

(3) 遗传 学 。 随 着 多 组 学 数据 的 积累 和 新 型 基因 
大 模型 的 出 现 ， 遗 传 学 研究 已 进入 新 范式 推动 的 快速 
发 展 阶段 ， 基 于 基因 表达 谱 数 据 的 自 监督 预 训练 大 模 
型 有 望 成 为 解析 基因 调控 规律 、 预 测 疾病 靶 点 的 有 力 
工具 外 ,拓展 遗 传 学 研究 的 探索 边界 。 

(4) 药物 设计 开发 。 随 着 AlphaFold 的 出 现 和 一 
批 分 子 动力 学 模型 的 发 展 ，AI 模 型 已 经 被 用 于 预测 和 
筛选 药物 候选 分 子 。 未 来 新 范式 将 进一步 推动 该 领域 
的 发 展 ， 有 望 出 现 AI 辅 助 的 全 流程 药物 设计 开发 体 
系 ， 能 够 自主 完成 药物 结构 和 性 质 的 优化 设计 、 实 现 
候选 药物 的 有 效 性 和 安全 性 模拟 预测 、 生 成 药物 的 高 
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效 合成 和 生产 工艺 方案 ， 极 大 加 速 药物 的 开发 和 生产 


(5) 精准 医学 。 计 算 机 视觉 、 自 然 语言 处 理 和 机 
顺 学 习 等 AI 技术 已 广泛 渗透 到 生物 影像 、 医 学 影像 、 
疾病 智能 分 析 及 靶 点 预测 等 精准 医学 子 领域 。 例 如 ， 
基于 AI 的 诊断 系统 在 准确 度 上 已 经 可 以 媲美 甚至 在 某 
些 方面 超过 资深 的 临床 医生 RY。 然而 ,， 现 有 的 模型 大 
多 受制 于 数据 的 偏好 性 ， 存 在 鲁 棒 性 差 、 通 用 性 低 等 
问题 ， 随 着 新 范式 驱动 的 通用 精准 医学 模型 的 出 现 ， 
将 有 助 于 更 加 快速 准确 地 诊断 疾病 、 解 析 疾病 的 分 子 
机 制 、 发 现 新 的 治疗 骤 点 ， 提 高 人 类 的 健康 水 平 。 
3.2 我 国生 命 科学 研究 新 范式 面临 的 挑战 

面 对 生 命 科 学 研究 新 范式 发 展 的 新 形势 、 新 要 
求 ， 我 国 仍 面临 高 质量 生命 科学 数据 资源 体系 缺乏 、 
AI 关键 技术 与 基础 设施 不 足 、 新 范式 下 的 交叉 创新 科 
研 新 生态 匮乏 等 方面 的 巨大 挑战 。 
3.2.1 高 质量 生命 科学 数据 资源 体系 缺乏 

尽管 我 国 在 生命 领域 的 科研 投入 持续 增加 ， 但 在 
一 些 前 沿 领域 ， 我 国 科学 家 仍 依赖 国外 高 质量 数据 ， 
而 国内 数据 的 建设 和 使 用 相对 滞后 ， 我 国生 命 科 学 数 
据 资源 还 存在 分 布 不 均衡 问题 ， 需 要 更 好 地 统筹 协调 
和 资源 整合 ， 实 现 高 质量 生命 科学 数据 资源 的 高 效 汇 
聚 和 系统 化 提升 。 此 外 ， 在 生命 科学 数据 的 收集 、 传 
输 和 存储 过 程 中 ， 数 据 安全 问题 明 竺 加强， 特别 是 生 
物 数据 的 隐私 和 安全 问题 仍 需要 引起 重视 。 

面 对 这 些 挑战 ， 我 国 需要 加 强 科学 数据 资源 的 整 
合 与 共享 ， 推 动 生命 科学 数据 资源 的 可 持续 发 展 ， 提 
高 数据 的 质量 和 安全 性 ， 加 强 数据 管理 与 供给 模式 的 
变革 ， 推 动 跨 领域 多 模 态 科技 资源 融合 服务 能 力 的 提 
升 ， 以 满足 新 范式 下 科研 需求 的 发 展 。 
3.2.2 AI 关键 技术 与 基础 设施 不 足 

我 国 AI 驱动 新 科研 范式 的 核心 技术 相对 荐 乏 ， 自 
主 原创 的 算法 、 模 型 、 工 具 仍 待 大 力 发 展 。 针 对 生命 
科学 大 数据 的 海量 、 高 维 、 稀 跪 分布 等 特征 ， 阴 需 发 
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展 复杂 数据 的 先进 计算 与 分 析 方 法 。 未 来 应 开发 更 加 
适合 生命 科学 应 用 的 硬件 、 软 件 和 新 计算 介质 ， 并 在 
生命 科学 和 计算 科学 的 融合 过 程 中 ， 探 索 新 的 计算 - 生 
物 交互 模式 。 简 而 言 之 ， 新 范式 研究 对 数据 、 网 络 、 
算 力 等 资源 的 综合 能 力 提 出 了 新 的 要 求 ， 需 要 加 快 推 
进 新 一 代 信 息 基 础 设施 建设 ， 解 决算 力 “ 卡 脖子 ” 
问题 。 
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现 有 AI 驱动 的 生命 科学 研究 方式 大 多 为 课题 组 自 
发 组 合 的 “小 作坊 ”模式 ， 缺 乏 新 范式 发 展 所 需 的 交 
又 创新 环境 。 美 国 在 2023 年 发 布 的 《国家 人 工 智能 研 
发 战略 计划 》 更 新 版 本 中 也 着 重 强调 了 人 工 智 能 研究 
的 路 学 科 交 叉 发 展 的 重要 性 。 因 此 ， 新 范式 下 的 科研 
生态 应 鼓励 更 为 广泛 的 多 学 科 “ 大 交叉 ”“ 大 了 融合”， 
建立 干 湿 结合 、 理 实 交 融 的 新 型 研究 模式 ， 持 续 培 养 
高 水 平复 合 型 交叉 研究 人 才 。 

在 新 形势 下 我 国 也 已 经 开始 广泛 布局 和 推进 交叉 
学 科 的 发 展 。《 中 华人 民 共 和 国 国 民 经 济 和 社会 发 展 
第 十 四 个 五 年 规划 和 2035 年 远景 目标 纲要 》 中 指出 要 
作 动 互联 网 、 大 数据 、 人 工 智能 等 同 各 产业 的 深度 融 
合 。 结 合 我 国生 命 科学 领域 的 实际 发 展 情况 ， 我 国生 
命 科学 领域 发 展 更 应 着 眼 于 将 AI 赋 能 生命 科学 研究 的 
范式 变 昔 融入 我国 新 时 代 的 国家 发 展 远 景 布局 中 ， 实 
现 以 点 带 面 的 整体 效应 建立 更 加 开放 的 新 型 科研 生态 
和 发 展 环境 。 


E. 


4 结语 


近年 来 ， 生 命 科学 领域 正经 历 着 前 所 未 有 的 
变 ， 这 一 领域 的 发 展 不 仅 受 到 生物 技术 和 信息 技术 的 
双重 推动 ， 更 受到 AI 技术 进步 的 巨大 影响 。 这 一 变 单 
的 核心 在 于 从 传统 的 主要 依赖 于 人 经 验 的 假说 和 实验 
驱动 的 科研 范式 向 大 数据 和 AI 驱动 的 新 研究 范式 的 演 
变 。 这 意味 着 我 们 不 再 仅仅 依赖 于 实验 和 假说 ， 而 是 
过 大 数据 分 析 和 AI 技术 主动 揭示 生命 的 奥秘 。 更 广 
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泛 的 ， 这 个 演变 将 广泛 改变 或 促进 不 同 层 面 的 科学 研 
究 活动 的 变 单 ， 涵 盖 了 认识 论 、 方 法 论 、 研 究 组 织 形 
式 、 经 济 社会 及 伦理 法 律 等 众多 层面 。 

综合 而 言 ， 我 们 正身 临 着 一 个 充满 变革 和 希望 的 
时 代 ， 生 命 科 学 的 革新 与 科技 的 进步 共同 绘制 出 人 类 
对 生命 奥秘 更 深层 次 探索 的 未 来 蓝图 。 可 以 预见 ， 随 
着 通用 AI 的 进一步 发 展 ， 生 命 科 学 研究 将 在 不 远 的 未 
来 实现 干 湿 融 合 、 人 机 协同 的 新 模式 ， 迎 来 AI 自 驱 抽 
象 新 知识 、 新 规律 的 “ 预 人 所 未 见 ， 思 人 所 未 思 ” 的 
科学 新 时 代 。 
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Anew paradigm of life science research driven by 
artificial intelligence 


LIXin" YU Hanchao™ 
(1 Institute of Zoology, Chinese Academy of Sciences, Beijing 100101, China; 
2 Beijing Institute for Stem Cell and Regenerative Medicine, Beijing 100101, China; 
3 Bureau of Frontier Sciences and Education, Chinese Academy of Sciences, Beijing 100864, China) 

Abstract The rapid development of biotechnology and information technology has brought life sciences into a new era of data 
explosion. The traditional life science research paradigm struggles to reveal the fundamental rules of complex biological systems from 
rapidly growing biological big data. As artificial intelligence continues to achieve disruptive breakthroughs in life science, a new 
paradigm driven by AI is emerging. This study delves into typical examples of life science research driven by AI, proposes the concept 
and key elements of the new life science research paradigm, elaborates on the cutting-edge of life science research under this new 
paradigm, and discusses the challenges in China. 
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